はじめに

python-docxで全文を抽出したら、ハイパーリンクの箇所が抜けていたので、ハイパーリンクの中身を取得する方法を調べた

ハイパーリンク・・・だけを抽出

うーん、色々と調べたのだけれども、とりあえず以下の様にすると、ファイルのハイパーリンクを抜き出す事ができる。


from docx import Document
from docx.opc.constants import RELATIONSHIP_TYPE
document = Document('test.docx')
rels = document.part.rels

test=[]
for rel in rels:
    if rels[rel].reltype == RELATIONSHIP_TYPE.HYPERLINK:
        test.append(rels[rel]._target)


print(test)

が、これには問題がある。ハイパーリンクを設定している元のテキストがない。ソースを見たのだけれども、ここではないどこかに格納されてるっぽくて、探し出せなかった。

一応、python-docx2txt を使えば、ハイパーリンクの元のテキストも取得できるが。。。

python-docx2txtを使えば、元のテキストをとれるが、肝心のハイパーリンクはない・・・両方併せれば・・・と考えたが、どこにハイパーリンクが設定されてるのかいまいちわからないので、使えなかった。

とりあえず、使わなそうだけど、いつか使う時がくるかもしれないので記載